Compression Enable/Disable করা গাইড ও নোট

Big Data and Analytics - স্কুপ (Sqoop) - Sqoop এর জন্য Compression Techniques
265

Apache Sqoop ডেটা ইম্পোর্ট এবং এক্সপোর্ট করার সময় ডেটা কমপ্রেস (সংকুচিত) করার সুবিধা দেয়। এটি ডেটার আকার কমিয়ে, স্থান এবং স্থানান্তর করার সময় ব্যান্ডউইথ সাশ্রয় করতে সাহায্য করে। Sqoop-এ কমপ্রেশন সক্ষম (enable) বা অক্ষম (disable) করার জন্য কয়েকটি অপশন প্রদান করা হয়। সাধারণত --compress এবং --compression-codec অপশনগুলো ব্যবহার করে এই ফিচারটি কনফিগার করা হয়।


Compression Enable করা

Compression সক্ষম করতে হলে, আপনাকে --compress অপশন ব্যবহার করতে হবে, এবং আপনি যে কম্প্রেশন কোডেক (codec) ব্যবহার করতে চান, সেটি নির্দিষ্ট করতে হবে। কমপ্রেশন কোডেকের মধ্যে জনপ্রিয় কিছু হল:

  • org.apache.hadoop.io.compress.GzipCodec (Gzip)
  • org.apache.hadoop.io.compress.BZip2Codec (Bzip2)
  • org.apache.hadoop.io.compress.SnappyCodec (Snappy)

Compression Enable করার উদাহরণ:

sqoop import --connect jdbc:mysql://localhost:3306/mydb \
--username root --password root \
--table employees \
--target-dir /user/hadoop/employees_compressed \
--compress \
--compression-codec org.apache.hadoop.io.compress.GzipCodec

এখানে:

  • --compress: এই অপশনটি কমপ্রেশন সক্ষম করে।
  • --compression-codec: কমপ্রেশন কোডেক নির্ধারণ করে (এখানে GzipCodec ব্যবহৃত হয়েছে)।

এই কমান্ডটি MySQL ডাটাবেসের employees টেবিলের ডেটা HDFS-এ Gzip ফরম্যাটে সংকুচিত করে সংরক্ষণ করবে।

অন্যান্য কমপ্রেশন কোডেক:

  • org.apache.hadoop.io.compress.BZip2Codec: Bzip2 কোডেক ব্যবহার করলে উচ্চ কম্প্রেশন রেট পাওয়া যায়, কিন্তু এটি ধীর হতে পারে।
  • org.apache.hadoop.io.compress.SnappyCodec: Snappy কোডেক একটি দ্রুত কম্প্রেশন এবং ডিকম্প্রেশন অপশন, যা গতি এবং কম্প্রেশন রেটের মধ্যে ভাল ব্যালান্স রাখে।

Compression Disable করা

কমপ্রেশন নিষ্ক্রিয় (disable) করতে, আপনি --compress অপশনটি বাদ দিতে পারেন বা --compress-codec অপশনটি উপেক্ষা করতে পারেন। ডিফল্টভাবে, Sqoop কোনো কমপ্রেশন ব্যবহার করবে না যদি না এটি স্পষ্টভাবে সক্ষম করা হয়।

Compression Disable করার উদাহরণ:

sqoop import --connect jdbc:mysql://localhost:3306/mydb \
--username root --password root \
--table employees \
--target-dir /user/hadoop/employees_no_compression

এখানে:

  • কম্প্রেশন কোডেকের জন্য কোন অপশন নেই, যা দ্বারা এটি বুঝানো হচ্ছে যে কমপ্রেশন অক্ষম (disable) করা হয়েছে।

Compression এর সুবিধা ও অসুবিধা

সুবিধা:

  1. স্পেস সাশ্রয়: কমপ্রেশন ডেটার আকার কমিয়ে সংরক্ষণ স্থান সাশ্রয় করে।
  2. ব্যান্ডউইথ সাশ্রয়: কমপ্রেসড ডেটা স্থানান্তরের জন্য কম ব্যান্ডউইথ প্রয়োজন, যা নেটওয়ার্কের গতি এবং ব্যান্ডউইথ ব্যবহারে সুবিধা দেয়।
  3. ডেটা স্থানান্তর দ্রুত: কিছু কম্প্রেশন কোডেক (যেমন Snappy) ডেটা স্থানান্তরের গতি দ্রুত করতে পারে।

অসুবিধা:

  1. প্রসেসিং টাইম: কমপ্রেশন এবং ডিকম্প্রেশন করার জন্য অতিরিক্ত প্রসেসিং সময় প্রয়োজন, যা কিছু ক্ষেত্রে পারফরম্যান্সে প্রভাব ফেলতে পারে।
  2. কম্প্রেশন রেট: কিছু কম্প্রেশন কোডেক (যেমন Snappy) কম্প্রেশন রেটের তুলনায় দ্রুত কাজ করে, তবে কম প্রভাব ফেলে ডেটার আকারে।

সারাংশ

Sqoop-এ ডেটার কমপ্রেশন সক্ষম করতে --compress এবং --compression-codec অপশন ব্যবহার করা হয়, যা ডেটাকে সংকুচিত করে স্থানান্তর ও সঞ্চয়ের জন্য ব্যান্ডউইথ এবং স্টোরেজ সাশ্রয় করতে সাহায্য করে। Gzip, Bzip2, এবং Snappy কোডেকগুলো সাধারণত ব্যবহৃত হয়। আপনি যদি কমপ্রেশন নিষ্ক্রিয় করতে চান, তাহলে --compress অপশনটি বাদ দিতে হবে।

Content added By
Promotion

Are you sure to start over?

Loading...